智能论文笔记

Sigmorphon 2022关于词素分割的共享任务挑战了将单词分解为一系列词素的系统，并涵盖了大多数类型的形态：化合物，衍生和弯曲。子任务1，单词级词素细分，涵盖了9种语言的500万个单词（捷克，英语，西班牙语，匈牙利语，法语，意大利语，俄语，拉丁语，蒙古语），并收到了7个团队的13个系统提交，最佳系统平均为97.29％F1在所有语言中得分，英语（93.84％）到拉丁语（99.38％）。子任务2，句子级的词素细分，涵盖了3种语言的18,735个句子（捷克，英语，蒙古人），从3个团队中收到10个系统提交，最好的系统优于所有三种最先进的子字体化方法（BPE（BPE），Ulm，Morfessor2）绝对30.71％。为了促进错误分析并支持任何类型的未来研究，我们发布了所有系统预测，评估脚本和所有黄金标准数据集。

translated by 谷歌翻译

Analysis of impact of emotions on target speech extraction and speech separation

Ján Švec , Kateřina Žmolíková , Martin Kocour , Marc Delcroix , Tsubasa Ochiai , Ladislav Mošner , Jan Černocký

分类：机器学习

2022-08-15

最近，盲目的语音分离（BSS）和目标语音提取（TSE）的表现已取得了长足的进步。但是，大多数作品都专注于相对控制的条件，例如阅读语音。在更现实的情况下，性能可能会降低。引起这种降解的因素之一可能是固有的说话者变异性，例如情绪，通常在现实的语音中发生。在本文中，我们研究了情绪对TSE和BSS的影响。我们创建了一个新的测试数据集，以评估TSE和BSS。该数据集结合了Librispeech和Ryerson Audio-Visual Visual Espections and Song（Ravdess）。通过受控的实验，我们可以分析不同情绪对BSS和TSE性能的影响。我们观察到BSS对情绪相对强大，而TSE需要识别和提取目标说话者的语音，对情绪更为敏感。在比较演讲者验证实验中，我们表明，在处理情感语音时，确定目标扬声器可能特别具有挑战性。使用我们的发现，我们概述了可能改善BSS和TSE系统对情感语音的鲁棒性的潜在方向。

translated by 谷歌翻译

在典型的多讲话者语音识别系统中，基于神经网络的声学模型预测每个扬声器的Senone状态后部。这些稍后被单通讲话者解码器用来分别在每个扬声器特定的输出流上应用。在这项工作中，我们认为这样的计划是次优的，并提出一个原理的解决方案，该原则解决方案共同解码所有发言人。我们修改了声学模型以预测所有扬声器的联合状态后索，使网络能够表达对扬声器的零件归属的不确定性。我们采用联合解码器，可以与更高级别的语言信息一起使用这种不确定性。为此，我们在早期多讲话者语音识别系统中重新访问阶乘生成模型中使用的解码算法。与这些早期作品相比，我们用DNN替换GMM声学模型，提供更大的建模电力并简化了推理的一部分。我们展示了在混合Tidigits DataSet上对概念实验证明的关节解码的优势。

translated by 谷歌翻译